Methods On Demand 2023

Autor:in

Samuel Merk

Herzlich Willkommen!

Wer bin ich?
  • Samuel Merk
  • Professor für empirische Schul- und Unterrichtsforschung
  • Interessiert an evidenzinformierter Schul- und Unterrichtsentwicklung
  • Open Science Enthusiast
Wer seid ihr?
  • Inhaltliche Interessen
  • Stand der Promotion
  • Vorerfahrung Statistik
    • Workshops
    • Modelle (t-Test, ANOVA, …)
    • Software
  • An was würdet ihr gerne arbeiten?

Masterplan

  • Grundbegriffe
  • Korrelation
  • Regression
    • Einfache lineare Regression (LM)
    • Multiple lineare Regression
  • Generalized Linear Models (GLM)
    • Logistische Regression
    • Poisson Regression
  • Konfirmatorische Faktorenanalyse (CFA)
    • Latente Variablen
    • Messmodelle
    • Model-Fit Evaluation
  • Strukturgleichungsmodellierung (SEM)
    • Motivation
    • Grundlegende Vorgehensweise

Zum Modus des Workshops

Was können wir (nicht) vom Workshop erwarten?

Typischerweise erwartet »man« zu viel von einem Workshop wie diesem. Niemand wird nach 1,5 Tagen SEM beherrschen.
Jedoch müssen alle irgendwo & irgendwie anfangen. Der Workshop soll für viele die Gelegenheit bieten Anstoß für eigene Elaborationen zu finden.

Wie maximiere ich meinen Lernerfolg?

M.E. am besten mit möglichst aktiver Elaboration. Wenn man gerade unterfordert ist, erklärt man den Inhalt seiner Kollegin und wenn man gerade überfordert ist bittet man die Kollegin um eine Erklärung.

Block I: Grundbegriffe

Kontrastiert und vergleicht die folgenden Begriffsets und eleboriert mit euren Partnern Beispiele aus eurer eigenen Forschung
  • Explorative Studie, explanative Studie, deskriptive Studie und prädiktive Studie
  • Externe Validität, interne Validität, Konstruktvalidität
  • Experiment, Quasi-Experiemnt, Nicht-Experiment
  • Inferenzstatistik, Deskriptivstatistik, Effektstärken
  • Signifikanz, p-Werte, \(\alpha\)-Niveau

Exporative Studien zielen darauf ab neue Hypothesen/Forschungsfragen zu generieren, während explanative Studien deren Konfrimation oder Falsifikation zum Ziel haben. Deskriptive Studien wollen die Ausprägung von Größen in bestimmten Populationen beschrieben. Prädiktive Studien wollen Daten vorhersagen ohne am Wahrheitsgehalt der dazu verwendeten Modelle interessiert zu sein.

Die externe Validität beschreibt, inwiefern die Schlussfoglerung einer Studie über ihre Stichprobe, Materialien etc. hinaus verallgemeinerbar ist. Die interne Validität bringt das Ausmaß der interpretierbarkeit eines Studienergebnisses als kausale Relation von unabhängiger und abhängiger Variable zum Ausdruck. Die Konstruktvalidität ist ein Qualitätsmerkmal von Messungen und beschreibt inwiefern Evidenz für die Angemessenheit der Interpretation eines Messwertes vorliegt.

Experimente teilen Merkmalsträger zufallsbasiert in Gruppen ein, die unterschiedlichen Treatments unterzogen werden. Bei Quasiexperimenten liegt diese Gruppeneinteilung nicht in der Hand der Forschenden. Nicht-Experimente untersuchen nicht die Effekte von Treatments.

Inferenzstatistik macht Aussagen über den stochastischen Prozess der ein vorliegenden Datensatz generiert. Typischerweise werden dabei Hypothesen getestet oder die Unsicherheit einer Parameterschätzung quantifiziert. Deskriptivstatistik macht Aussagen über einen Datensatz. Effektstärken (z.B. Cohen’s d) können Deskriptivstatistiken sein. Konfidenz- oder Credibilityintervalle von Effektstsärken stellen allerdings Infernezstatistiken dar.

p-Werte quantifizieren die Wahrscheinlichkeit vorliegende (oder extremer gegen die Nullhypothese sprechende Daten) zu erhalten unter der Annahme, dass die Nullhypothese wahr ist. Fällt diese Wahrscheinlicheit und eine a priori festegelegte Irrtumswahrscheinlichkeit \(\alpha\) spricht man von Signifikanz.

Block II: Korrelation

Warm-Up Aufgaben

Interpretationsaufgaben

Angenommen die folgenden Daten stellen das Ergebnis eines Lesetests dar, in Abhängigkeit des Umfangs einer Leseförderung, die randomisiert unterschiedlich lange ausgebracht wurde. Was sagen diese Daten aus?

Die nächsten Daten beschreiben die Anzahl der Nobelpreise und die durschnittliche Menge gegessener Schokolade in einer Reihe von Ländern. Was sagen diese Daten aus?

Datenaufgabe
  • Berechnet die Korrelationen und
  • testet diese auf die Nullhypothese \(H_0: \; r = 0\) mit einem p-Wert oder Bayes Factor

Definitionen

Die Pearson Definition ist wie folgt definiert:

\[r_{x, y}=\frac{\sum_{i=1}^n\left(x_i-\bar{x}\right)\left(y_i-\bar{y}\right)}{\sqrt{\sum_{i=1}^n\left(x_i-\bar{x}\right)^2 \sum_{i=1}^n\left(y_i-\bar{y}\right)^2}} = \frac{Cov(x,y)}{s_x \cdot s_y} = Cov(x,y) \cdot \frac{1}{s_x} \cdot \frac{1}{s_y}\]

In der folgenden dynamischen Visualisierung kann man sehen, dass die Kovarianz der »gerichteten Fläche« entspricht:

Da die Kovarianz aber von der Maßeinheit der Größen abhängt wird diese durch die Standardabweichung beider Größen geteilt.

Eigenschaften Pearson’s \(r\)

  • Pearson’s \(r\) beschreibt die Stärke der (negativen oder positiven) Assoziation zweier bivariat normalverteilten Variablen
  • Pearson’s \(r\) nimmt Werte zwischen -1 und 1 an \((-1 \leq r \leq 1)\). -1 impliziert die maximale negative Assoziation, 0 keine Assoziation und 1 die maximale positive Assoziation
  • Nach Cohen (1988), gilt \(r =.1\) (bzw. \(r = -.1\)) als kleiner Effekt, \(r =.3\) (bzw. \(r = -.3\)) als moderater und \(r =.5\) (bzw. \(r = -.5\)) als starker Effekt

Visual Guessing Pearson’s \(r\)

Meiner Erfahrung nach ist es höchst sinnvoll Effektstärken in Grafiken überstezen zu können und umgekehrt. Um dies zu lernen kann die folgende handgestrickte App dienen.

Block III: Regression

Einfache lineare Regression

Bsp: Lernstunden vs. Lernerfolg

Parametrisierung

  • Darstellung als Formel (Term)
    • Typische Schreibweise: \(y_i = b_0 + b_1 \cdot x_i + \epsilon_i\)
    • Generalisierte Schreibweise: \(y_i \sim \mathcal{N}(\mu,\,\sigma^{2})\) mit \(\mu = b_0 + b_1 \cdot x_i\)
    • Datenbeispiel: \(\text{Punkte}_i = 10 + 0,5 \cdot \text{Vorbereitungsaufwand}_i + \epsilon_i\)
  • Darstellung als Pfadmodell

Parameterschätzung

Effektstärke \(\beta_1\)

Effektstärke \(R^2\)

Übung: Einfache lineare Regression

Diese Datei enthält die Klausurdaten aus dem Beispiel oben.

Basisaufgabe:

  • Bestimmt die standardisierten und unstandardisierten Regressionskoeffizienten sowie \(R^2\) und interpretiert sie.

Vertiefungsaufgaben

  • Schätzt die Parameter in einem bayesianischen Framework mit {brms} und vergleicht Konfidenz mit Credibilityintervallen
  • Berechnet einen Bayes Factor via BayesFactor der das Modell mit Prädiktor mit einem Modell ohne Prädiktor vergleicht

Multiple Regression

  • Typische Schreibweise: * \(y_i = b_0 + b_1 \cdot x_{1i} + b_2 \cdot x_{2i} + \dots + b_j \cdot x_{ji} + \epsilon_i\)
  • Generalisierte Schreibweise: \(y_i \sim \mathcal{N}(\mu,\,\sigma^{2})\) mit \(\mu = b_0 + b_1 \cdot x_{1i} + b_2 \cdot x_{2i} + \dots + b_j \cdot x_{ji}\)
  • Datenbeispiel: \(\text{Punkte}_i = -0,13 + 0,52 \cdot \text{Vorbereitungsaufwand}_i + 0,38 \cdot \text{Pruefungsangst}_i + \epsilon_i\)
  • Darstellung als Pfadmodell

  • Geometrische Darstellung
Aufgabe

Basisaufgabe

  • Bestimmt die standardisierten und unstandardisierten Regressionskoeffizienten und interpretiert sie ebenso wie deren p-Werte.

Vertiefungsaufgabe

  • Was sagen die Ergebnisse über die kausale Relation der Variablen aus?
data_kl <- read_sav("data/klausur_data_m.sav")

lm_kl01 <- lm(Punkte ~ Vorbereitungsaufwand , 
              data = data_kl)
summary(lm_kl01)

Call:
lm(formula = Punkte ~ Vorbereitungsaufwand, data = data_kl)

Residuals:
     Min       1Q   Median       3Q      Max 
-13.8260  -2.0486   0.0091   2.5091   8.1411 

Coefficients:
                     Estimate Std. Error t value Pr(>|t|)    
(Intercept)           1.81471    1.69265   1.072    0.289    
Vorbereitungsaufwand  0.51649    0.05491   9.406 1.81e-12 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 4.246 on 48 degrees of freedom
Multiple R-squared:  0.6483,    Adjusted R-squared:  0.6409 
F-statistic: 88.47 on 1 and 48 DF,  p-value: 1.809e-12
lm_kl02 <- lm(Punkte ~ Vorbereitungsaufwand + Pruefungsangst, 
              data = data_kl)
summary(lm_kl02)

Call:
lm(formula = Punkte ~ Vorbereitungsaufwand + Pruefungsangst, 
    data = data_kl)

Residuals:
    Min      1Q  Median      3Q     Max 
-12.627  -2.267  -0.651   2.533   8.913 

Coefficients:
                     Estimate Std. Error t value Pr(>|t|)    
(Intercept)          -0.13243    1.92373  -0.069   0.9454    
Vorbereitungsaufwand  0.51633    0.05337   9.674 9.22e-13 ***
Pruefungsangst        0.37681    0.19297   1.953   0.0568 .  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 4.127 on 47 degrees of freedom
Multiple R-squared:  0.6747,    Adjusted R-squared:  0.6608 
F-statistic: 48.73 on 2 and 47 DF,  p-value: 3.464e-12

Block IV: Generalized Linear Models

Ein verallgemeinertes lineares Modell umfasst typischerweise

  1. einen Datenvektor \(y = (y_1, . . . , y_n)\)
  2. Prädiktoren \(\mathbf{X}\) und Koeffizienten \(\beta\), die einen linearen Prädiktor \(\mathbf{X}{\beta}\) bilden
  3. Eine Verknüpfungsfunktion \(g\), die einen Vektor von transformierten Daten \(\hat{y}=g^{-1}(\mathbf(X) \beta)\) ergibt, die zur Modellierung der Daten verwendet werden
  4. Eine Datenverteilung, \(P(y)\)
  5. Möglicherweise andere Parameter, wie Varianzen, »Überstreuungen« und Grenzwerte, die in die Prädiktoren, die Verknüpfungsfunktion und die Datenverteilung eingehen.

Beispiel logistische Regression

Mit der logistischen Regression werden Binäre Daten (nominale Variablen mit zwei Ausprägungen) anhand von metrischen oder dummykodierten Variablen prädiziert. Dabei gilt:

\[\begin{aligned} y_i & \sim \operatorname{Bernoulli(p_i)} \\ \operatorname{logit}\left(p_i\right) & =X_i \beta \end{aligned}\]

mit \(\operatorname{logit}(x)=\log (x /(1-x))\).

data_poll_repub <- 
  read_dta("data/polls.dta")

mod_poll01 <- 
  glm(bush ~ age, 
      family = binomial(link = "logit"),
      data = data_poll_repub)

summary(mod_poll01)

Call:
glm(formula = bush ~ age, family = binomial(link = "logit"), 
    data = data_poll_repub)

Deviance Residuals: 
   Min      1Q  Median      3Q     Max  
-1.313  -1.292   1.047   1.067   1.108  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  0.36314    0.04812   7.547 4.47e-14 ***
age         -0.04930    0.01887  -2.613  0.00898 ** 
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 15858  on 11565  degrees of freedom
Residual deviance: 15851  on 11564  degrees of freedom
  (1978 observations deleted due to missingness)
AIC: 15855

Number of Fisher Scoring iterations: 3
mod_poll02 <- 
  glm(bush ~ black, 
      family = binomial(link = "logit"),
      data = data_poll_repub)

summary(mod_poll02)

Call:
glm(formula = bush ~ black, family = binomial(link = "logit"), 
    data = data_poll_repub)

Deviance Residuals: 
   Min      1Q  Median      3Q     Max  
-1.336  -1.336   1.027   1.027   1.752  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  0.36581    0.01968   18.59   <2e-16 ***
black       -1.65796    0.08382  -19.78   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 15858  on 11565  degrees of freedom
Residual deviance: 15376  on 11564  degrees of freedom
  (1978 observations deleted due to missingness)
AIC: 15380

Number of Fisher Scoring iterations: 4

Block IV: Konfirmatorische Faktorenanalyse

Zunächst herzlichen Dank an Sascha Epskamp für die Möglichkeit Vieles aus seinen Materialien zu übernehmen!

Konfirmatorische Faktorenanalyse ist ein zentrales Tool der Psychometrie. Sie stellt eine Möglichkeit dar, den Zusammenhang von latenten Variablen und ihren Indikatoren formal zu beschreiben.

Zusammenhang zwischen latenter Variable (Temperatur) und Indikator (Thermometer). Abb. CC-BY Sascha Epskamp.

Messmodell

In dieser Schreibweise gilt:

  • Kreise: Latente Variablen
  • Rechtecke/Quadrate: Beobachtete Variablen/Measurements/Daten/Indikatoren
  • Unidirektionale Pfeile: Kausale Effekte
  • Bidirektionale Pfeile: Kovarianzen

\[ \begin{aligned} y_{i 1} & =\lambda_{11} \eta_{i 1}+\varepsilon_{i 1} \\ \eta_1 & \sim N\left(0, \sqrt{\psi_{11}}\right) \\ \varepsilon_1 & \sim N\left(0, \sqrt{\theta_{11}}\right) \end{aligned} \]

Man nennt \(\lambda_{11}\) Faktorladung, \(\varepsilon_{i 1}\) Residualvarianz und \(\psi_{11}\) Faktorvarianz. Obwohl wir die Skala des Faktors nicht kennen können wir dennoch die Varianz des Indikators zur Varianz der Variablen ins Verhältnis setzen:

\[ \operatorname{Var}\left(y_1\right)=\lambda_{11}^2 \psi_{11}+\theta_{11} \]

Schan daraus kann man sinnvolle statistische Größen für die Reliabilität ableiten, z.B. den Anteil der Varianz in der latenten Variable, die durch den Indikator erklärt wird.

\[ \frac{\lambda_{11}^2 \psi_{11}}{\lambda_{11}^2 \psi_{11}+\theta_{11}} \] Diese Annahmen identifizieren aber die Skala der latenten Variable noch nicht, denn wenn wir \(\lambda_{11}\) um \(c\) vervielfachen und \(\psi_{11}\) duch \(c^2\) teilen erhalten wir dieselbe Varianz von \(y\). Typischerweise »setzt«/»fixiert«/»restringiert« man entweder \(\lambda_{11} = 1\) oder \(\psi_{11} = 1\).

Das zentrale Problem ist nun, dass man Parameter und latente Variablen nicht simultan/gemeinsam schätzen (also aus den Daten ermitteln) kann. Die zentrale Strategie zur Lösung dieses Problems im Rahmen der CFA ist »Kovarianzmodellierung«. Dabei sucht man nach analytischen Zusammenhängen (»Formeln«) die nur die beobachteten Variablen/Daten enthalten und Varianzen/Kovarianzen der latenten Variablen:

Messmodell mit restringierter Ladung

\[\begin{aligned} y_{i 1} & =\eta_{i 1}+\varepsilon_{i 1} \\ \eta_1 & \sim N\left(0, \sqrt{\psi_{11}}\right) \\ \varepsilon_1 & \sim N\left(0, \sqrt{\theta_{11}}\right) \\ \operatorname{Var}\left(y_1\right) & =\psi_{11}+\theta_{11} \end{aligned}\]

In diesem Beisopiel erkennt man ein weiteres Problem: \(\operatorname{Var}\left(y_1\right)\) ist nicht »identifiziert« = »es gibt \(\infty\) viele Möglichkeiten für \(\operatorname{Var}\left(y_1\right)\)« = »es liegen negative Freiheitsgrade vor«. Diese sind weie folgt definiert:

\[\operatorname{DF}=a−b\] Wobei

  • a die Anzahl der beobachteten Variablen ist, woraus sich \(\frac{a(a + 1)}{2}\) Varianzen und Kovarianzen berechnen lassen und
  • b die Anzahl der Parameter ist. die geschätzt werden muss.
  • Typischerweise braucht man 3 Indikatoren für ein Modell mit einer einzigen latenten Variable oder 2 je Faktor/latenter variable mit mehrern korrelierten latenten Variablen

Das allgemeine Rahmenmodell der CFA

\[ \begin{aligned} \boldsymbol{y}_i & =\boldsymbol{\Lambda} \boldsymbol{\eta}_i+\boldsymbol{\varepsilon}_i \\ \boldsymbol{y} & \sim N(\mathbf{0}, \boldsymbol{\Sigma}) \\ \boldsymbol{\eta} & \sim N(\mathbf{0}, \Psi) \\ \varepsilon & \sim N(\mathbf{0}, \boldsymbol{\Theta}) \end{aligned} \]

Dabei ist

  • \(\boldsymbol{y}_i\) ein Vektor der Länge \(p\) mit den »Responses«/»beobachteten Variablen«/»Indikatoren«
  • \(\boldsymbol{\eta}_i\) ein Vektor der Länge \(m\) von latenten Variablen
  • \(\varepsilon_i\) ein Vektor der Länge \(p\) mit Residuen
  • \(\Lambda\) eine Matrix der Größe \(p \times m\) mit Faktorladungen
  • \(\boldsymbol{\Psi}\) eine symmetrische Matrix der Größe \(m \times m\) mit Varianzen und Kovarianzen
  • \(\boldsymbol{\theta}\) eine symmetrische Matrix der Größe \(p \times p\) mit Varianzen und Kovarianzen der Residuen.

Die modellimplizierte Varianz-Kovarianz-Matrix ergibt sich dann als \[\boldsymbol{\Sigma}=\boldsymbol{\Lambda} \Psi \boldsymbol{\Lambda}^{\top}+\boldsymbol{\theta}\]

Schätzung von \(\boldsymbol{\Sigma}\)

Die beobachtete Varianz-Kovarianz-Matrix ist ein erwartungstreuer Schätzer für $. Die dabei typischerweise verwendete Maximum-Likelihood Funktion ist

\[F_{\mathrm{ML}}=\operatorname{trace}\left(\boldsymbol{S} \boldsymbol{\Sigma}^{-1}\right)-\ln \left|\boldsymbol{S} \boldsymbol{\Sigma}^{-1}\right|-p\]

  • Dabei ist
    • \(\boldsymbol{S}\) die beobachtete Varianz-Kovarianz-Matrix,
    • \(\operatorname{trace}\) die Spur einer Matrix und
    • \(\left| ... \right|\) die Determinate einer Matrix.
  • \(F_{\mathrm{ML}}=0\) falls \(\boldsymbol{S} = \boldsymbol{\Sigma}\)
  • \(F_{\mathrm{ML}}\) kann also sowohl zur Schätzung von \(\boldsymbol{\Sigma}\) dienen als auch als Maß für die »Devianz«/»Nicht-Passung des Modells«.

Eine anschauliche Einführung in die Grundprinzipien der ML-Schätzung bietet (Magnusson, 2020).

Beispiele für das CFA-Framework

One-Leg-Model

One-Leg-Model. DF < 0

Two-Leg-Model

Two-Leg-Model. DF < 0

Three-Leg-Model

Three-Leg-Model. DF = 0

Two-Factor-Model

Two-Factor-Model. DF > 0

Two-Factor-Model mit Residualkovarianz

Two-Factor-Model mit Residualkovarianz. DF > 0

Modellfitevaluation für CFA

Test auf exakten Fit

Für das CFA-Framework gilt:

\[ n \cdot F_{ML} = T \sim \chi^2(\mathrm{DF}) \Longleftrightarrow \operatorname{Var}(\boldsymbol{y})=\boldsymbol{\Sigma}\] Das bedeutet man kann die Nullhypothese \(H_0: \; \boldsymbol{S} = \boldsymbol{\Sigma}\) (»exakter Fit«) testen. Problem dabei ist, dass nicht-signifikante Testergebnisse inkonklusiv sind und bei sehr großen \(N\) \(\boldsymbol{S}\) immer signifikant von \(\boldsymbol{\Sigma}\) abweicht, obwohl die »Effektstärke« der Nicht-Passung dabei sehr klein sein kann.

Root Mean Square Error of Approximation (RMSEA)

Der RMSEA misst operationalisiert den absoluten Fit (kein Vergleichsmodell) indem er den Missfit zur Anzahl der Freiheitgrade und der Stichprobengröße setzt:

\[\operatorname{RMSEA} = \sqrt{\frac{T_M-\mathrm{DF}_M}{\left(n \mathrm{DF}_M\right)}}\]

»Typische« Benchmarks (Hu & Bentler, 1999, S. marsh2004) sind:

  • < .05 “very good fit” or “close fit”
  • .05 − .08 “good fit” or “fair fit”
  • .08 − .1 “mediocre fit” or “good fit”
  • .05 − .08 “good fit” or “fair fit”
  • .10 “poor or unacceptable”

Der RMSEA ist einer der wenigen Indices, von denen man die approximative Verteilung kennt. Daher kann man in auch testen. Also z.B. die Nullhypothese verwerfen, dass \(\operatorname{RMSE} > .10\)

Inkrementelle Fit Indices

Es liegen eine Vielzahl an inkrementellen Fit-Indices vor. Alle haben Vor- und Nachteile. Zur Ermittlung dieser Indices wird der Fit des vorliegenden Modells mit dem Fit des Baselinemodells oder dem Fit des saturierten Modells verglichen.

Basline Modell, Beispielmodell, saturiertes Modell Zum Beispiel:

  • \(\operatorname{TLI}=\frac{T_B-\frac{d f_B}{d f_M} T_M}{T_B}\)
  • \(\operatorname{CFI}=1-\frac{T_M-d f_M}{T_B-d f_B}\)

wobei das Index \(_{B}\) für das Baselinemodell steht.

Worked out Examples: CFA

Holzinger-Swineford Data

Angenommen es liegen die folgenden Daten vor, die die kognitiven Fähigkeiten von Schülerinnen und Schülern dreidimensional mit den Faktoren visuell (x1, x2, x3), textlich (x4, x5, x6) und geschwindigkeit (x7, x8, x9) darstellen sollen. Inwiefern liefern CFA Evidenz für die Annahme der Dreidimensionalität?

library(lavaan)
library(tidyverse)
glimpse(HolzingerSwineford1939)
Rows: 301
Columns: 15
$ id     <int> 1, 2, 3, 4, 5, 6, 7, 8, 9, 11, 12, 13, 14, 15, 16, 17, 18, 19, …
$ sex    <int> 1, 2, 2, 1, 2, 2, 1, 2, 2, 2, 1, 1, 2, 2, 1, 2, 2, 1, 2, 2, 1, …
$ ageyr  <int> 13, 13, 13, 13, 12, 14, 12, 12, 13, 12, 12, 12, 12, 12, 12, 12,…
$ agemo  <int> 1, 7, 1, 2, 2, 1, 1, 2, 0, 5, 2, 11, 7, 8, 6, 1, 11, 5, 8, 3, 1…
$ school <fct> Pasteur, Pasteur, Pasteur, Pasteur, Pasteur, Pasteur, Pasteur, …
$ grade  <int> 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, …
$ x1     <dbl> 3.333333, 5.333333, 4.500000, 5.333333, 4.833333, 5.333333, 2.8…
$ x2     <dbl> 7.75, 5.25, 5.25, 7.75, 4.75, 5.00, 6.00, 6.25, 5.75, 5.25, 5.7…
$ x3     <dbl> 0.375, 2.125, 1.875, 3.000, 0.875, 2.250, 1.000, 1.875, 1.500, …
$ x4     <dbl> 2.333333, 1.666667, 1.000000, 2.666667, 2.666667, 1.000000, 3.3…
$ x5     <dbl> 5.75, 3.00, 1.75, 4.50, 4.00, 3.00, 6.00, 4.25, 5.75, 5.00, 3.5…
$ x6     <dbl> 1.2857143, 1.2857143, 0.4285714, 2.4285714, 2.5714286, 0.857142…
$ x7     <dbl> 3.391304, 3.782609, 3.260870, 3.000000, 3.695652, 4.347826, 4.6…
$ x8     <dbl> 5.75, 6.25, 3.90, 5.30, 6.30, 6.65, 6.20, 5.15, 4.65, 4.55, 5.7…
$ x9     <dbl> 6.361111, 7.916667, 4.416667, 4.861111, 5.916667, 7.500000, 4.8…
G-Factor Data by Spearman

Der historische Datensatz von Karl Pearson enthält Variablen zu Noten und sensory discrimination von Schülerinnen und Schülern.

Die Variablen sind:

  • Years - Age of the pupil in years.
  • Months - Age of the pupil in additional months on top of Years (e.g., the first pupil is 10 years and 9 months old).
  • Age - Age of the pupil in the decimal system.
  • Pitch - Score in pitch discrimination test.
  • Light - Score in light discrimination test.
  • Weight - Score in weight discrimination test.
  • Classics - School grade for classic studies.
  • French - School grade for French.
  • English - School grade for English.
  • Mathematics - School grade for mathematics.

Testet inwiefern ein einfaktorielles Modell (G-Faktor) den Daten tatsächlich besser entspricht als ein Modell das einen Faktor für die sensorischen Variablen und einen Faktor für die Schulleistungsvariablen enthält.

Generic Conspiracist Beliefs

Die Tendenz zu generischen Verschwörungstheorien wird oft mit der GCB-Skala erfasst.

Prüft anhand dieser Daten, deren Bedeutung in Download diesem Codebook erklärt wird inwiefern die in (Brotherton, French, & Pickering, 2013) beschriebene Faktorenstruktur repliziert werden kann.

Strukturgleichungsmodellierung (SEM)

Strukturgleichungsmodelle unterscheiden sich von CFA-Modellen dadurch, dass sie neben dem Messmodell zusätzlich noch ein Strukturmodell annehmen. Die unglaubliche Vielfalt an Modellklassen die SEM erlaubt rührt im wesentlichen von der Tatsache her, dass in SEM Variablen abhängige und unabhängige Variable zugleich sein können. So lassen sich Modelle für

  • Gruppenunterschiede
  • Konstruktvalidierung
  • Zeitliche Verläufe
  • Ähnlichketi von zeitlichen Verläufen
  • u.v.a.m.

spezifizieren.

Literatur

Brotherton, R., French, C., & Pickering, A. (2013). Measuring Belief in Conspiracy Theories: The Generic Conspiracist Beliefs Scale. Frontiers in Psychology, 4.
Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences (Second). New Jersey: Lawrence Erlbaum.
Hu, L., & Bentler, P. M. (1999). Cutoff Criteria for Fit Indexes in Covariance Structure Analysis: Conventional Criteria versus New Alternatives. Structural Equation Modeling: A Multidisciplinary Journal, 6(1), 1–55.
Magnusson, K. (2020). Understanding Maximum Likelihood: An Interactive Visualization (Version 0.1.2). Abgerufen von https://rpsychologist.com/likelihood/